Например, Бобцов

ViSL model: модель автоматической генерации предложений вьетнамского языка жестов

Аннотация:

Введение. Основной проблемой при построении интеллектуальных систем является недостаточность данных для машинного обучения, что особенно актуально для распознавания языка жестов для глухих и слабослышащих людей. Одним из способов увеличения объема данных для обучения интеллектуальных систем является их синтез. В отличие от синтеза речи, создавать последовательность жестов на вьетнамском и некоторых других языках, в точности повторяющих текст, невозможно. Это связано с существенной ограниченностью словаря жестов и отличающимся порядком слов в предложениях. Целью работы является обогащение обучающего набора видеоданных для создания систем распознавания вьетнамского языка жестов (Vietnamese Sign Language, ViSL). Метод. Поскольку транслировать слова исходного текста в жесты невозможно, возникает задача перевода с обычного языка на жестовый. Для решения поставленной задачи в работе использован двухфазный процесс. На первой фазе выполняется предварительная обработка текста со стандартизацией текстового формата, сегментацией слов и предложений, а затем кодирование слов с помощью словаря языка жестов. На данном этапе не требуется удалять знаки препинания и стоп-слова, поскольку они связаны с точностью N-граммовой модели. На второй фазе вместо использования синтаксического анализа применяется статистический метод формирования последовательности жестов. При этом за основу берется марковская модель на графе переходов между словами, в которой вероятность следующего слова зависит только от двух предыдущих слов. Вероятности переходов вычисляются на существующем размеченном наборе ViSL. Метод графового поиска в ширину используется для составления списка всех предложений, сгенерированных на основе заданного грамматического правила и матрицы семантического взаимодействия между словами. Обратное значение логарифма произведения вероятности совместного появления последовательных словосочетаний из трех слов в предложении используется для оценки частоты встречаемости этого предложения в заданном наборе данных. Основные результаты. Основываясь на данных ViSL, состоящих из 3234 слов, рассчитаны матрицы вероятности, представляющие отношения между словами, на основе данных ViSL с 50 млн предложений, собранных из вьетнамских газет и журналов. Для различных грамматических правил выполнено сравнение количества сгенерированных предложений и оценка точности 50 наиболее часто встречающихся предложений. Средняя точность составила 88 %. Точность сгенерированных предложений оценена статистическими методами. Показано, что число сгенерированных предложений зависит от количества частей слова, которые помечены в соответствии с правилами грамматики. Семантическая точность сгенерированных предложений высока, если поисковые слова помечены правильными частями речи. Обсуждение. По сравнению с методами машинного обучения, предлагаемая модель дает хорошие результаты для языков без словоизменений и порядка слов, следующих определенным правилам, таких как вьетнамский язык, и не требует больших вычислительных ресурсов. Недостатком модели является зависимость точности от типа слова, предложения и сегментации слов. Взаимосвязь слов зависит от наблюдаемого набора данных. Будущее направление исследований — создание абзацев на языке жестов. Полученные данные могут быть использованы в моделях машинного обучения для задач обработки языка жестов.

Ключевые слова:

Статьи в номере